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要 : 针对 稀疏 的 用 户 评分 
这 些 单一 方法 都 不 能 
才 滤 算法 。 该 算法 首先 利用 填充 法 随机 填充 部 分 
利用 填充 后 的 数据 和 新 相似 度 方 
最 后 的 推荐 。 实 验 表明 ， 在 数据 稀 
滤 算 法 ; 填补 法 ; 新 相似 度 
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Abstract: Aiming at the sparse user rating data, domestic and foreign scholars have made many improvements on collaborative 


filtering algorithm, which were summarized as filling user rating data, improving similarity, fusing content to recommend and 


so on. These single methods can’t solve the problem of data sparseness. In order to solve this problem, this paper proposed a 


collaborative filtering algorithm which combines the filling data and improving similarity. Firstly, it used the improved filling 


method which increases the item’s attribute information to fill the user rating data, and then recommended using new similarity 


method, produced the recommended results, iterated m times. Finally it recommended items according to the average score of 


scores got in m iterations. The experiment shows that the proposed algorithm has a better recommendation effect than single 


methods in the case of sparse user rating data. 
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0 引言 析 用 户 兴 趣 ， 找 到 与 目标 用 户 相似 的 邻居 用 户 ， 综 合 这 些 邻 居 
用 户 对 某 一 信息 的 评价 ， 形 成 系统 对 目标 用 户 偏好 的 预测 并 进 

近年 来 ， 随 着 物 联 网 ， 云 计算 ， 社 交 网 络 的 迅速 发 展 ， 网 行 相应 的 推荐 内 。 协 同 过 滤 算 法 的 优势 在 于 : a) 不 需要 考虑 被 
络 空间 所 包含 的 信息 量 呈 指数 增长 汕 。 例 如 ， 亚 马 逊 拥有 数 以 推荐 项 目的 内 容 ， 能 够 过 滤 机 器 难以 分 析 的 内 容 ， 如 艺术 品 、 
百 万 种 独特 的 产品 ， 谷 歌 音 乐 库 有 数 以 二 万 计 的 歌曲 ， 电影 、 音 乐 等 ; b) 有 推荐 新 项 目的 能 力 ， 可 以 发 现 内 容 上 不 相 
Del.icio.us 有 超过 10 亿 的 网 页 收藏 夹 ， 淘 宝 的 在 线 产 品 数量 已 以 的 项 目 , 可 以 挖 据 用 户 潜在 的 兴趣 偏好 ;c) 技 术 上 容易 实现 。 
超过 8 亿 ， 新 浪 微 博 的 用 户 和 腾讯 的 微 信 用 户 超过 5 亿 户 。 在 基于 此 ， 协 同 过 滤 技 术 是 当前 比较 流行 的 推荐 技术 。 然 而 ， 用 
这 种 情况 下 ， 推 荐 系统 应 运 而 生 。 推 荐 系统 通过 对 用 户 的 各 种 户 反 馈 信 息 和 矩阵 是 稀疏 的 ， 也 就 是 说 ， 大 多 数 用 户 标记 非常 少 
数据 的 收集 和 分 析 来 学 习 用 户 兴趣 和 行为 的 模型， 并 向 用 户 推 的 项 目 ， 导 致 传统 的 相似 度 计 算 方 法 不 准确 ， 难 以 获得 较 好 的 
荐 所 需 的 信息 和 服务 。 推 效果 

se 言 息 过 载 问题 ， 引 起 学 术 界 和 工业 界 1 ”相关 工作 
的 广泛 关注 。 

Goldberg 等 人 于 1992 he 第 一 个 推荐 系统 Tapestry， 1.1 协同 过 滤 算 法 研究 现状 
并 首次 提出 “协同 过 滤 ” 思 想 申 ， 这 一 思想 的 提出 极 大 的 推动 了 协同 过 滤 算 法 的 基本 假设 是 如 果 两 个 用 户 在 一 些 项 目 上 具 
推荐 系统 的 研究 和 发 展 。 协 同 过 ie 用 户 的 行为 记录 分 有 相似 的 历史 标注 或 者 行为 习惯 ， 那 么 他 们 在 一 些 项 目 上 也 有 
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填补 法 和 改进 相似 度 相 结合 的 协同 过 滤 算 法 


录用 稿 邢 长 征 ， 等 : 
相似 的 兴趣 后 。 虽 然 协 同 过 滤 算 法 取得 了 巨大 的 成 功 ， 但 仍然 Jaccard 相似 性 和 URPCuser-rating-preference) 相 似 性 ， 将 三 者 乘 
存在 诸多 问题 ， 其 中 最 为 严峻 的 是 数据 稀疏 问题 。 实 际 的 网 站 积 作为 用 户 间 最 终 的 相似 性 。 李 容 等 人 0 考虑 到 用 户 共 同 评分 
中 用 户 和 项 目的 数目 非常 庞大 ， 而 多 数 用 户 通常 只 对 小 部 分 的 项 目 占用 比 和 平均 评分 因子 作为 两 个 修正 因子 来 改进 传统 相似 
项 目 评 分 ， 造 成 用 户 之 间 评 分 的 重 芭 部 分 很 小 ， 难 以 计算 两 个 度 的 计算 。 
用 户 之 间 的 相似 程度 , 并 找到 邻居 用 户 , 造 成 推荐 结果 不 准确 。 缺失 值 填补 法 可 以 直观 、 显 著 地 改善 数据 稀疏 问题 ， 但 它 
针对 这 个 问题 ， 很 多 国内 外 学 子 提出 了 很 多 改进 的 方法 ， 主 要 本 身 是 对 评分 缺失 值 的 一 种 预测 ， 并 不 能 真正 代表 用 户 偏好 ， 
有 空 值 填充 法 、 改 进 相似 度 方法 、 推 荐 结果 融合 和 结合 内 容 推 而 且 预 测 的 评分 对 推荐 结果 有 较 大 的 影响 ， 改 进 相似 度 方法 利 
诈 等 方法 。 用 用 户 、 项 目 、 用 户 对 项 目 评分 等 各 种 信息 进行 用 户 相 似 度 的 
1.2 缺失 值 填补 法 计算 ， 但 是 它 还 是 在 已 有 的 有 限 的 评分 数据 集 上 进行 计算 ， 不 
缺失 值 填补 法 是 根据 已 有 的 用 户 评分 数据 ， 以 某 种 计算 方 能 从 根本 上 解决 评分 数据 稀疏 的 问题 。 于 是 ， 本 文 提出 一 种 填 
法 对 用 户 未 评分 的 数据 进行 估计 并 填充 ， 可 以 显 式 的 解决 数据 补 法 和 改进 相似 度 相 结合 的 结果 融合 的 协同 过 滤 算 法 。 该 算法 
稀 下 问题 。 最 简单 的 填补 法 是 将 未 评分 的 项 目 设 一 个 固定 的 缺 首先 利用 填补 法 随机 填补 部 分 数据 ， 然 后 利用 改进 的 相似 度 方 
省 值 ， 或 者 设 为 其 他 用 户 对 该 项 目的 平均 评分 进行 填充 中。 然 法 进行 推荐 ， 在 原始 数据 上 再 填补 部 分 数据 ， 进 行 推 荐 ， 几 轮 
而 这 种 简单 的 填充 法 并 不 能 满足 用 户 的 个 性 化 需求 ， 于 是 各 种 之 后 ， 统 计 被 评分 项 目的 平均 得 分 ， 按 照 得 分 多 少 依次 推荐 给 
预测 评分 填补 法 被 提出 。 邓 爱 林 等 人 " 提 出 基于 项 目 评 分 预测 用 户 。 
的 协同 过 滤 算 法 ， 该 算法 采用 基于 项 目的 协同 过 滤 方 法 填补 确 2 ”本 文 算法 
实数 据 。 张 玉 芳 等 人 四 提出 一 种 结合 条 件 概率 和 传统 协同 过 滤 
算法 的 非 固 定 K 近邻 算法 。 该 算法 在 基于 分 步 填 充 评分 矩阵 的 2.1 填补 数据 
思想 上 ， 第 一 步 只 接受 相似 度 和 共同 评分 项 目 数 量 达 到 闵 值 的 本 文 首先 对 邓 爱 林 等 人 提出 的 基于 项 目 评分 预测 的 协同 
邻居 用 户 作为 目标 用 户 邻 居 ， 然 后 计算 并 填充 未 评分 项 目 ; 第 过 滤 方 法 的 缺失 数据 填充 部 分 作 了 改进 。 由 于 原 有 的 填补 方法 
二 步 使 用 第 一 阶段 部 分 填充 后 的 矩阵 计算 剩余 未 评分 项 目的 评 只 考虑 到 项 目的 评分 ， 没 有 考虑 到 项 目 自身 的 属性 ， 所 以 在 原 
分 。 昌 成 成 等 四 提出 了 一 个 基于 KNN-SVM 的 混合 协同 过 滤 推 有 算法 的 基础 上 加 上 项 目 属性 的 约束 能 使 得 缺失 值 填 补 更 加 准 
荐 算法 , 该 算法 利用 K 最 近邻 法 对 训练 集中 的 缺失 数据 进行 填 确 。 
补 , 然 后 通过 支持 向 量 机 交叉 验证 进行 分 类 推荐 。 冷 亚军 等 人 100 设 U={fuu，…us} 是 用 户 集合 , I= 位 ,iy,…,i,} 是 项 目的 
提出 一 种 基于 近邻 评分 填补 的 混合 协同 过 滤 推 荐 算法 。 该 算法 集合 , 根据 用 户 评分 形成 user-item 评分 矩阵 及, ， 对 于 用 户 未 
对 原始 评分 矩阵 进行 全 局 降 维 ， 在 低 维 的 主 成 分 空间 中 计算 用 评分 的 项 目 默认 设 为 0。 用 户 评分 矩阵 的 列 作为 项 目的 特征 向 
户 相 似 性 ， 减 少 算法 复杂 度 。 采 用 奇异 值 分 解法 对 近邻 评分 缺 量 ， 使 用 余弦 相似 度 计 算 项 目 i 和 项 目 j 之 间 的 第 一 相似 度 ， 
失 值 进行 填补 ， 降 低 近 邻 评分 的 稀疏 性 。Chujai 等 人 00 同 时 使 。 记 为 simi,; 查看 各 个 项 目 与 目标 项 目 自身 的 属性 信息 , 即 对 任 
用 用 户 信息 和 电影 信息 挖掘 频繁 项 集 , 填补 缺失 数据 。Insuwan 意 的 项 目 jel 属 性 值 与 目标 项 目 i 的 属性 值 相同 ， 则 第 三 相似 
等 人 [9 提出 SVDUPMedianCF 算法 ， 该 算法 利用 改进 的 K- 度 为 stmi 等 于 1， 否 则 为 0。 黄 金 比例 已 被 广泛 应 用 与 建筑 、 
means 算法 进行 聚 类 ， 得 到 聚 类 的 中 心 来 填补 缺失 值 。 美学 、 音 乐 、 工 业 设 计 等 领域 ， 近 年 来 ， 复 杂 系 统 的 优化 问题 
1.3 改进 相似 度 方法 也 借用 了 黄金 比例 ， 并 取得 了 良好 的 效果 08。 本 文 借鉴 “黄金 
数据 十 分 稀疏 时 ， 使 用 传统 的 相似 度 计 算 方 法 往往 不 能 得 分 割 ” 的 思想 ， 项 目的 相似 度 由 两 种 相似 度 以 黄金 比例 分 割 系 
到 很 好 的 推荐 效果 ,于 是 研究 人 员 提 出 很 多 新 相似 度 计算 方法 。 数 加 权 得 到 。 由 于 用 户 对 项 目的 评分 更 加 直观 体现 用 户 的 偏好 ， 
赵 琴 琴 等 人 [3 提出 一 种 改进 的 基于 内 存 的 协同 过 滤 推 荐 算法 所 以 第 一 相似 度 对 最 终 相 似 度 的 影响 更 大 ， 即 
SPCF， 该 算法 通过 相似 度 传播 ， 寻 找到 更 多 、 更 可 靠 的 邻居 。 sims = 0.6018simi + 0.382sim; , (1) 
付 芬 等 人 0 提出 一 种 隐 式 评分 和 相似 度 传递 的 协同 过 滤 推 荐 按照 相似 度 大 小 排序 , 形成 目标 项 目的 邻居 项 目 集 M, 。 根 
算法 ， 该 算法 加 入 相似 因子 提高 相似 度 的 置信 和 度 ， 寻 找 最 近邻 据 公式 
用 户 ， 并 引入 相似 度 传递 策略 调整 相似 度 因子 产生 推荐 。 仇 国 i 
庆 等 人 0 设计 了 一 种 正 态 分 布 函数 相似 度量 模型 ， 此 模型 考虑 RS O) 
了 用 户 间 的 共同 评分 、 共 同 评分 项 目 数 、 以 及 用 户 的 评分 值 ， 
据 此 提出 了 融合 正 态 分 布 函数 相似 度 的 协同 过 滤 算 法 ， 该 算法 预测 用 户 u 对 目标 项 目 i 预测 评分 ， 并 填充 。 
通过 综合 多 种 评分 因素 利用 正 态 分 布 函数 和 修正 的 余弦 相似 度 2.2 ”新 相似 度 方法 
Ek 同 度 量 用 户 间 的 相似 关系 。Liu 等 人 09 提 出 新 的 启发 式 相似 在 新 相似 性 计算 方法 上 ， 本 文 对 李 容 等 (7 提出 的 改进 相似 
性 度量 方法 (new heuristic similarity model，NHSM)。NHSM 分 度 的 协同 过 滤 算 法 中 计算 相似 度 的 方法 作出 改进 ， 下 面 列 出 改 


别 计算 用 


户 间 的 PSS(proximity-significance-singularity) 相 似 性 、 


进 的 相似 度 计 算 方 法 的 主要 步骤 : 
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a) 考虑 两 个 用 户 的 共同 评分 项 目 数 对 相似 度 的 影响 
卫 
R = 一 -~ 
4 min(N.,,N,) G3) 
其 中 , 表示 用 户 w 和 用 户 v 的 共同 评分 项 目 数 ，NN,,NN, 分 别 


表示 用 户 & 和 用 户 v 的 评分 项 目 数 。R 越 大 ， 则 用 户 wu 用户 v 
的 整体 相似 度 越 高 ， 正 好 符合 两 个 用 户 共同 评分 的 项 
两 个 用 户 的 相似 度 越 大 的 事实 。 


b) 引入 距离 d(u,v) 来 衡量 用 户 wx 和 用 户 v 的 平均 评分 差 
异 。 
1 
dn v) = oh (4) 
其 中 : mi 表示 用 户 wu 对 项 目 i 的 评分 ，Z, 表示 用 户 w 和 用 户 y 
的 共同 评分 项 目 集 。d(u,v) 越 大 说 明 两 个 用 户 的 平均 评分 差异 
越 大 ， 则 两 个 用 户 相 似 性 越 低 ， 则 修正 平均 评分 因子 为 : 
1 
pha) 国 1+d(u,v) G) 
Dp 越 大 则 用 户 w 和 用 户 v 的 相似 度 越 高 。 


c) 得 到 改进 的 相似 度 计 算 方 法 : 
NSim(u,v)=sim(u,v)xR(u,v)xp(u,v) (6) 
其 中 sim(u,v) 为 传统 的 余弦 相似 度 计 算 方法 。 
2.3 具体 步骤 
a) 填补 数据 : 为 了 避免 用 户 对 项 目 评分 为 0 却 被 视 为 未 评 

分 的 情况 ,在 填补 数据 时 ,首先 产生 一 个 随机 整数 代表 用 户 id， 
计算 用 户 评分 项 目的 集合 I, ,项 目 集 I-I 表示 用 户 未 评分 的 项 
目 ， 再 在 I 里 随机 抽取 一 个 整数 作为 项 目 i4， 这 样 随机 产生 
一 个 需要 填补 的 数据 。 设 定 一 个 填补 系数 0,a e[0,1] ，a=0 表 
示 不 对 原始 数据 填补 ，a =1 表 示 对 所 有 缺失 数据 进行 填补 ，Q& 
的 大 小 决定 填补 的 数据 量 。 
b) 填补 数据 后 ,使 用 新 相似 度 方法 ， 对 未 评分 项 


预测 谍 


分 。 


b) 重复 步骤 a) b) 夫 代 m 次 ， 取 每 次 被 推荐 项 目 评 分 的 
平均 值 ， 把 项 目 按 评分 从 高 到 低 排序 ， 依 次 推荐 给 用 户 。 
目标 用 户 对 目标 项 目 i 预测 评分 Ri ， 公 式 为 

NSim (u,v )xr, 
一 ee v) (7 
其 中 :表示 用 户 v 对 项 目 i 的 评分 ，S 是 用 户 x 的 邻居 集 。 


3 ”实验 结果 及 分 析 


3.1 数据 集 
本 实验 使 用 MovieLens 数据 集 [ 四 该 数据 集 由 美国 
Minnesota 大 学 GroupLens 小 组 收集 ,包含 了 943 位 用 户 对 1682 
部 电影 的 10 万 条 评分 数据 。 所 有 的 评分 值 分 布 在 [0,5] 区 间 , 越 
高 的 评分 值 代表 越 强 的 用 户 兴 趣 ， 每 位 用 户 至 少 对 20 部 电影 
评分 。 随 机 抽取 300 位 用 户 的 评分 数据 作为 本 实验 的 数据 鲁 
每 组 实验 按照 二 八 比 例 拆 分 数据 集 为 测试 数据 和 训练 数据 。 
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3.2 度量 标准 

为 验证 本 文 算法 的 性 能 ， 本 文 使 用 统计 精度 度量 方法 中 最 
常用 的 评价 指标 平均 绝对 偏差 (MAE) 作 为 度量 标准 。 平 均 绝对 
偏差 MAE 通过 计算 用 户 对 项 目的 预测 评分 和 实际 评分 之 间 的 
偏差 度量 算法 的 推荐 准确 性 , MAE 越 小 , 说 明 推 荐 结果 越 准确 。 
设 预测 的 用 户 评分 集合 表示 为 {p,,p……p,} ， 对 应 的 实际 用 户 
评分 集 为 包 ,D，…”:5} ， 则 平均 绝对 偏差 MAE 定义 为 


es 


Pe 


MAE- =P- (8) 
n 


3.3 实验 结果 及 分 析 

本 节 设 计 两 组 实验 对 本 文 算法 进行 分 析 研 究 。 第 一 组 实验 
分 析 填 补 系数 & 和 和 迭代 次 数 普 对 算法 的 影响 ,找到 使 算法 推荐 
结果 最 优 的 填补 系数 x 和 迭代 次 数 m。 算 法 最 优 的 基础 上 ， 第 
二 组 实验 使 本 文 算法 与 其 他 推荐 算法 比较 推荐 效果 。 

首先 确定 迭代 次 数 m 的 大 小 。 设 置 填补 系数 为 0.2， 每 次 
和 迭 代 时 , 填充 百 分 之 二 十 的 数据 , 推荐 时 为 每 个 用 户 选取 20 个 
最 近邻 ， 和 迭代 次 数 由 1 每 次 递增 1， 一 直到 m=10。 随 着 迭代 次 
数 m 的 不 断 增 加 ， 观 察 算 法 MAE 的 变化 。 实 验 结果 如 图 一 所 
示 ， 当 填补 系数 为 0.2 时 ， 随 着 迭代 次 数 的 增 大 ，MAE 呈 递 减 
趋势 , m>6 之 后 , MAE 的 变化 较 小 , 所 以 迭代 次 数 m 为 6 时 ， 
E 荐 效果 较 好 。 


T T T T T 
Fi 4 6 8 10 
m 


四 1 和 迭代 次 数 对 推荐 准 


下 一 步 确定 填补 系数 & 的 大 小 。 使 迭代 次 数 m=6， 改 变 填 
补 系数 的 大 小 ，a e[0,1] ， 每 次 递增 0.2。 效 果 如 图 二 所 示 ， 当 
迭代 次 数 为 6 时， 填补 系数 为 0.4， 推 荐 算法 效果 最 好 。 
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2 填补 系数 对 推荐 准确 度 的 影响 


第 二 组 实验 对 本 文 算法 (proposed CF)、 文 献 [7] 提 出 的 基于 
项 目 评分 预测 的 协同 过 滤 推 荐 算法 (pre-item CF ) 和 文献 [17] 提 
出 的 基于 改进 相似 度 的 协同 过 滤 算 法 (impro-similar CF) 作对 
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比 。pre-item CF 选择 余弦 相似 性 作为 用 户 间 相 似 度 度量 方法 ， 
能 达到 更 佳 的 效果 中; 本 文 算法 迭代 次 数 设 为 6, 填补 系数 设 为 
0.4。 邻 居 个 数 由 5 增加 到 40， 实 验 结果 如 图 三 所 示 ， 随 着 邻居 
用 户 的 增加 ， 三 个 算法 的 MAE 呈 减 小 趋势 ，pre-item CF 在 邻 
居 数 目 大 于 10 之 后 推荐 效果 稳定 ， 但 是 推荐 准确 度 不 高 ， 而 
impro-similar CF 在 邻居 用 户 大 于 25 之 后 ， 推 荐 效果 稳定 ， 本 
文 提 出 的 算法 结合 了 两 者 的 优点 ， 推 荐 准确 度 变 高 ， 较 其 他 两 
种 算法 表现 出 更 好 的 推荐 效果 。 
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0.825 ] 一 一 impro-similar CF 
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图 3 三 种 算法 MAE 对 比 图 
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针对 用 户 评分 矩阵 的 稀 玻 性 问题 ， 单 一 的 解决 办 法 并 不 能 
很 好 地 解决 这 个 问题 ， 缺 失 值 填补 法 本 身 是 对 评分 缺失 值 的 一 
种 预测 ， 并 不 能 真正 代表 用 户 偏好 ， 改 进 相似 度 方法 还 是 在 已 
有 的 有 限 的 评分 数据 集 上 进行 计算 ， 不 能 从 根本 上 解决 评分 数 
稀 玻 的 问题 。 于 是 ， 本 文 提 出 一 种 填补 法 和 改进 相似 度 相 结 
合 的 结果 融合 的 协同 过 滤 算法 。 该 算法 首先 利用 填补 法 随机 填 
补 部 分 数据 ， 填 补 数据 量 的 大 小 由 填补 系数 决定 ， 然 后 利用 改 
进 的 相似 度 方法 进行 推荐 ， 在 原始 数据 上 再 填补 部 分 数据 ， 进 
了 推荐 ， 几 轮 之 后 ， 统 计 被 评分 项 目的 平均 得 分 ， 按 照 得 分 多 
少 依次 推荐 给 用 户 。 本 文 提出 的 填补 法 和 新 相似 性 相 结合 的 方 
法 有 更 好 的 推荐 效果 ， 下 一 步 工作 将 对 本 文 算法 两 个 阶段 的 算 
法 ， 即 填补 法 和 新 相似 度 方法 作出 改进 。 
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